在本文中,我们提出了一种从3D骨架序列的两人交互的表示和分类的新方法。我们方法的关键思想是使用高斯分布来捕获关于对称正定(SPD)矩阵的r n的统计数据。主要挑战是如何参加这些分布。为此,我们基于LIE组和Riemannian对称空间理论,开发用于将高斯分布嵌入矩阵组中的方法。我们的方法依赖于基础歧管的黎曼几何形状,并且具有从3D关节位置编码高阶统计的优点。我们表明,该方法在三个基准测试中实现了三个基准的双人交互识别竞争结果。
translated by 谷歌翻译
In this work, we propose a new approach that combines data from multiple sensors for reliable obstacle avoidance. The sensors include two depth cameras and a LiDAR arranged so that they can capture the whole 3D area in front of the robot and a 2D slide around it. To fuse the data from these sensors, we first use an external camera as a reference to combine data from two depth cameras. A projection technique is then introduced to convert the 3D point cloud data of the cameras to its 2D correspondence. An obstacle avoidance algorithm is then developed based on the dynamic window approach. A number of experiments have been conducted to evaluate our proposed approach. The results show that the robot can effectively avoid static and dynamic obstacles of different shapes and sizes in different environments.
translated by 谷歌翻译
We introduce an approach for the answer-aware question generation problem. Instead of only relying on the capability of strong pre-trained language models, we observe that the information of answers and questions can be found in some relevant sentences in the context. Based on that, we design a model which includes two modules: a selector and a generator. The selector forces the model to more focus on relevant sentences regarding an answer to provide implicit local information. The generator generates questions by implicitly combining local information from the selector and global information from the whole context encoded by the encoder. The model is trained jointly to take advantage of latent interactions between the two modules. Experimental results on two benchmark datasets show that our model is better than strong pre-trained models for the question generation task. The code is also available (shorturl.at/lV567).
translated by 谷歌翻译
本文报道的研究通过应用计算机视觉技术将普通的垃圾桶转化为更聪明的垃圾箱。在传感器和执行器设备的支持下,垃圾桶可以自动对垃圾进行分类。特别是,垃圾箱上的摄像头拍摄垃圾的照片,然后进行中央处理单元分析,并决定将垃圾桶放入哪个垃圾箱中。我们的垃圾箱系统的准确性达到90%。此外,我们的模型已连接到Internet,以更新垃圾箱状态以进行进一步管理。开发了用于管理垃圾箱的移动应用程序。
translated by 谷歌翻译
客户的评论在在线购物中起着至关重要的作用。人们经常参考以前客户的评论或评论,以决定是否购买新产品。赶上这种行为,有些人会为骗子的客户创建不真实的评论,以了解产品的假质量。这些评论称为垃圾邮件评论,它使消费者在在线购物平台上混淆,并对在线购物行为产生负面影响。我们提出了称为Vispamreviews的数据集,该数据集具有严格的注释程序,用于检测电子商务平台上的垃圾邮件评论。我们的数据集由两个任务组成:用于检测评论是否为垃圾邮件的二进制分类任务以及用于识别垃圾邮件类型的多类分类任务。Phobert在这两个任务上均以宏平均F1分别获得了最高的结果,分别为88.93%和72.17%。
translated by 谷歌翻译
由于相似的外观产品及其各种姿势,在人类级别的精度上设计自动结帐系统为零售商店的精度而言具有挑战性。本文通过提出具有两阶段管道的方法来解决问题。第一阶段检测到类不足的项目,第二阶段专门用于对产品类别进行分类。我们还在视频帧中跟踪对象,以避免重复计数。一个主要的挑战是域间隙,因为模型经过合成数据的训练,但对真实图像进行了测试。为了减少误差差距,我们为第一阶段检测器采用域泛化方法。此外,模型集合用于增强第二阶段分类器的鲁棒性。该方法在AI City Challenge 2022 -Track 4上进行了评估,并在测试A集合中获得F1分40美元\%$。代码在链接https://github.com/cybercore-co-ltd/aicity22-track4上发布。
translated by 谷歌翻译
车辆到达时间预测已被广泛研究。随着物联网设备和深度学习技术的出现,估计的到达时间(ETA)已成为智能运输系统中的关键组成部分。尽管ETA存在许多工具,但由于特殊车辆的交通数据有限,ETA的特殊车辆(例如救护车,消防车等)仍然具有挑战性。现有作品使用一种模型用于所有类型的车辆,这可能会导致精确度较低。为了解决这个问题,作为该领域的第一个,我们为驾驶时间预测提出了一个深度转移学习框架TLETA。 TLETA构建了细胞时空知识网格,用于提取驾驶模式,并结合道路网络结构嵌入以构建ETA的深神经网络。 Tleta包含可转移的层,以支持不同类别的车辆之间的知识转移。重要的是,我们的转移模型仅训练最后一层以绘制转移的知识,从而大大减少了训练时间。实验研究表明,我们的模型以高精度预测旅行时间,并胜过许多最先进的方法。
translated by 谷歌翻译
基于硬件的加速度是促进许多计算密集型数学操作的广泛尝试。本文提出了一个基于FPGA的体系结构来加速卷积操作 - 在许多卷积神经网络模型中出现的复杂且昂贵的计算步骤。我们将设计定为标准卷积操作,打算以边缘-AI解决方案启动产品。该项目的目的是产生一个可以一次处理卷积层的FPGA IP核心。系统开发人员可以使用Verilog HDL作为体系结构的主要设计语言来部署IP核心。实验结果表明,我们在简单的边缘计算FPGA板上合成的单个计算核心可以提供0.224 GOPS。当董事会充分利用时,可以实现4.48 GOP。
translated by 谷歌翻译
在光场压缩中,基于图的编码功能强大,可以利用沿着不规则形状的信号冗余并获得良好的能量压实。然而,除了高度复杂性到处理高维图外,它们的图形构造方法对观点之间的差异信息的准确性非常敏感。在计算机软件生成的现实世界光场或合成光场中,由于渐晕效果和两种类型的光场视图之间的视图之间的巨大差异,将视差信息用于超射线投影可能会遭受不准确性。本文介绍了两种新型投影方案,导致差异信息的错误较小,其中一个投影方案还可以显着降低编码器和解码器的时间计算。实验结果表明,与原始投影方案和基于HEVC或基于JPEG PLENO的编码方法相比,使用这些建议可以大大增强超级像素的投影质量,以及率延伸性能。
translated by 谷歌翻译
图形神经网络已被证明可以为各种软件工程任务产生令人印象深刻的结果。但是,现有技术仍然有两个问题:(1)长期依赖性和(2)不同的代码组件在不应该的情况下被视为平等。为了解决这些问题,我们提出了一种表示代码为层次结构(代码层次结构)的方法,其中不同的代码组件在各个粒度级别分别表示。然后,为了处理每个表示级别的表示,我们设计了一个新颖的网络体系结构Echelon,它结合了异质图形变压器网络和基于树的卷积神经网络的优势,以学习具有代码依赖性信息丰富的抽象语法树。我们还提出了一个新颖的预处理目标,称为缺失子树预测以补充我们的代码层次结构。评估结果表明,我们的方法在三个任务中大大优于其他基准:任何代码完成,代码分类和代码克隆检测。
translated by 谷歌翻译